MongoDB——第三天细说高级操作

2015-07-07

今天跟大家分享一下mongodb中比较好玩的知识，主要包括：聚合，游标。

聚合

常见的聚合操作跟sql server一样，有：count，distinct，group，mapReduce。

count

count是最简单，最容易，也是最常用的聚合工具，它的使用跟我们C#里面的count使用简直一模一样。

> db.person.count();
4
> db.person.count({"name" : "yjc"});
1

count()里面是条件。

distinct

这个操作相信大家也是非常熟悉的，指定了谁，谁就不能重复。

现在数据库里有两个name为yjc的用户，我们distinct一下：

1 2	> db.person.distinct("name"); [ "yjc", "liyi", "lier", "yjc2" ]

distinct()里头是要指定的字符串。

group

在mongodb里面做group操作有点小复杂，不过大家对sql server里面的group比较熟悉的话还是一眼能看的明白的，其实group操作本质上形成了一种“k-v”模型，就像C#中的Dictionary，好，有了这种思维，我们来看看如何使用group。

下面举的例子就是按照age进行group操作，value为对应age的姓名。下面对这些参数介绍一下：

key：这个就是分组的key，我们这里是对年龄分组。
initial: 每组都分享一个”初始化函数“，特别注意：是每一组，比如这的age=20的value的list分享一个initial函数，age=22同样也分享一个initial函数。
$reduce: 这个函数的第一个参数是当前的文档对象，第二个参数是上一次function操作的累计对象，第一次为initial中的{”perosn“：[]}。有多少个文档， $reduce就会调用多少次。

db.person.group({
	"key" : { "age" : true},
	"initial" : { "user" : [] },
	"$reduce" : function(cur, prev){
		prev.user.push(cur.name)
	}
});

结果：

[
        {
                "age" : 5,
                "user" : [
                        "yjc"
                ]
        },
        {
                "age" : 20,
                "user" : [
                        "liyi"
                ]
        },
        {
                "age" : 10,
                "user" : [
                        "lier"
                ]
        },
        {
                "age" : 25,
                "user" : [
                        "yjc2"
                ]
        },
        {
                "age" : 22,
                "user" : [
                        "yjc"
                ]
        }
]

看到上面的结果，是不是有点感觉，我们通过age查看到了相应的name人员，不过有时我们可能有如下的要求：

1)想过滤掉age>20一些人员。
2)有时person数组里面的人员太多，我想加上一个count属性标明一下。

针对上面的需求，在group里面还是很好办到的，因为group有这么两个可选参数: condition 和 finalize。

condition: 这个就是过滤条件。
finalize: 这是个函数，每一组文档执行完后，多会触发此方法，那么在每组集合里面加上count也就是它的活了。

db.person.group({
	"key" : { "age" : true},
	"initial" : { "user" : [] },
	"reduce" : function(cur, prev){
		prev.user.push(cur.name);
	},
	"finalize" : function(prev){
		prev.count = prev.user.length;
	},
	"condition" : {"age" : {$gt : 20}}
});

结果：

[
        {
                "age" : 25,
                "user" : [
                        "yjc2"
                ],
                "count" : 1
        },
        {
                "age" : 22,
                "user" : [
                        "yjc"
                ],
                "count" : 1
        }
]

另外：由上面的例子，发现关键字reduce前面可以有$，也可以没有，但是$具体干嘛用的呢？

mapReduce

这玩意算是聚合函数中最复杂的了，不过复杂也好，越复杂就越灵活。

mapReduce其实是一种编程模型，用在分布式计算中，其中有一个“map”函数，一个”reduce“函数。

1)map：
这个称为映射函数，里面会调用emit(key,value)，集合会按照你指定的key进行映射分组。

2)reduce：
这个称为简化函数，会对map分组后的数据进行分组简化，注意：在reduce(key,value)中的key就是
emit中的key，vlaue为emit分组后的emit(value)的集合，这里也就是很多{“count”:1}的数组。

3)mapReduce:
这个就是最后执行的函数了，参数为map，reduce和一些可选参数。具体看程序可知：

function map(){
	emit(this.name, {count:1});
}
function reduce(key, value){
	var result = {count : 0};
	for(var i=0; i< value.length; i++){
		result.count += value[i].count;
	}
	return result;
}
db.person.mapReduce(map, reduce, {"out" : "collection"});

结果：

{
        "result" : "collection",
        "timeMillis" : 93,
        "counts" : {
                "input" : 5,
                "emit" : 5,
                "reduce" : 1,
                "output" : 4
        },
        "ok" : 1
}

从运行结我们可以看到如下信息：

result: “存放的集合名“；
input:传入文档的个数。
emit：此函数被调用的次数。
reduce：此函数被调用的次数。
output:最后返回文档的个数。

最后我们看一下“collecton”集合里面按姓名分组的情况。

1	db.collection.find();

结果：

{ "_id" : "lier", "value" : { "count" : 1 } }
{ "_id" : "liyi", "value" : { "count" : 1 } }
{ "_id" : "yjc", "value" : { "count" : 2 } }
{ "_id" : "yjc2", "value" : { "count" : 1 } }

游标

mongodb里面的游标有点类似我们说的C#里面延迟执行，比如：

1	var list=db.person.find();

针对这样的操作，list其实并没有获取到person中的文档，而是申明一个“查询结构”，等我们需要的时候通过for或者next()一次性加载过来，然后让游标逐行读取，当我们枚举完了之后，游标销毁，之后我们在通过list获取时，发现没有数据返回了。

> var list=db.person.find();
> list
{ "_id" : ObjectId("558fd39d02d9b5bcf004aaf5"), "name" : "yjc", "age" : 5, "address" : { "city" : "beijing" } }
{ "_id" : ObjectId("5590ac85c8e4762462ebbab2"), "name" : "liyi", "age" : 20, "address" : { "province" : "hubei", "city" : "wuhan" }, "favourite" : [ "music", "movie" ] }
{ "_id" : ObjectId("5590adecc8e4762462ebbab3"), "name" : "lier", "age" : 10, "adress" : { "province" : "hubei", "city" : "yichang" } }
{ "_id" : ObjectId("5590b92aeb60c2633d9cfa24"), "name" : "yjc2", "age" : 25 }
{ "_id" : ObjectId("55926102f431047603d95187"), "name" : "yjc", "age" : 22 }

当然我们的“查询构造”还可以搞的复杂点，比如分页，排序都可以加进去。

1	var single=db.person.find().sort({"name"：1}).skip(2).limit(2);

那么这样的“查询构造”可以在我们需要执行的时候执行，大大提高了不必要的花销。

> var single=db.person.find().sort({"name":1}).skip(2).limit(2);
> single
{ "_id" : ObjectId("558fd39d02d9b5bcf004aaf5"), "name" : "yjc", "age" : 5, "address" : { "city" : "beijing" } }
{ "_id" : ObjectId("55926102f431047603d95187"), "name" : "yjc", "age" : 22 }

sort()方法来对数据进行排序，指定排序字段，并使用1或-1来指定排序方式是升序或降序。

skip()跳过前面两条数据。
limit()该函数用来指定返回结果的最大数量

参考：
8天学通MongoDB——第三天细说高级操作 - 一线码农 - 博客园
http://www.cnblogs.com/huangxincheng/archive/2012/02/21/2361205.html